1
De la vraisemblance statistique aux programmes convexes
MATH008Lesson 7
00:00

L'inférence statistique demande : « Étant donné ces données, quelles sont les valeurs les plus probables des paramètres sous-jacents ? » Cette diapositive relie cette question à l'optimisation convexe. Nous transformons la notion probabiliste de vraisemblance en un programme structuré, en montrant que, sous des conditions de log-concavité, trouver la meilleure estimation équivaut à résoudre un problème d'optimisation convexe.

Le cadre de la vraisemblance

La fonction de vraisemblance est la distribution de probabilité $p_x(y)$ considérée comme une fonction du paramètre $x$ pour un échantillon observé fixe $y$. Pour estimer $x$, nous utilisons l'estimation du maximum de vraisemblance (MV): en choisissant la valeur qui rend les données observées les plus probables.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Pour des raisons de performance computationnelle, nous utilisons la fonction de log-vraisemblance, $l(x) = \log p_x(y)$. Comme le logarithme est une fonction strictement croissante, il préserve la position du maximum tout en transformant les produits (issus d'observations indépendantes) en sommes faciles à manipuler.

Le programme d'optimisation MV (7.1)

Nous formalisons l'estimation comme un programme mathématique :

$$\begin{array}{ll} \text{maximiser} & l(x) = \log p_x(y) \\ \text{sous contrainte} & x \in C \end{array}$$ (7.1)

Ce programme est un problème d'optimisation convexe si :

  • La fonction de log-vraisemblance $l$ est concave pour chaque valeur de $y$.
  • L'ensemble admissible $C$ (informations a priori) est décrit par des contraintes d'égalité linéaires et d'inégalités convexes.

Intégration des contraintes et des informations a priori

L'estimation MV nécessite de redéfinir $p_x(y)$ comme nulle pour $x \notin C$ afin d'imposer explicitement des contraintes physiques ou a priori. Dans l'espace d'optimisation, cela signifie que la fonction de log-vraisemblance est assignée à la valeur $-\infty$ pour les paramètres $x$ qui violent ces contraintes, créant ainsi une barrière infranchissable pour l'optimiseur.

🎯 Principe fondamental
La transition de « Maximum de Vraisemblance » à « Programme Convexe » repose sur la concavité de la densité logarithmique. Si le bruit ou la distribution est log-concave, l'estimation statistique devient une tâche d'optimisation globalement résoluble.